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摘 ARO er en 
方法 。 首 先 ， 通 过 预 处 理 阶段 对 维吾尔 语文 本 进行 分 词 、 删 除 停 止 词 、 提 取 词 干 和 同义词 殖 换 ， 其 中 提取 词 干 是 基于 

N-gram 统计 模型 实现 ; 然后， 通过 BKDRhash 算法 计算 每 个 文本 块 的 hash 值 并 构建 整个 文档 的 hash 指纹 信息 ; 最 

后 ， 根 据 hash 指纹 信息 ， 基 于 RKR-GST 匹配 算法 在 文档 级 、 段 落 级 和 句子 级 将 文档 与 文档 库 进行 匹配 ， 获 得 文档 相 

似 度 ， 以 此 实现 剩 穹 检测 。 通 过 在 维吾尔 语文 档 中 的 实验 评估 表明 ， 提 出 的 方法 能 够 准确 检测 出 旭 窃 文档 ， 具 有 可 行 

性 和 有 效 性 。 
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Uyghur document similarity calculation and plagiarism detection 
based on hierarchical matching 
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Abstract: For the issues of the similarity calculation and plagiarism detection from documents written in Uyghur, a content- 
based Uyghur plagiarism detection (U-PD) method is proposed. Firstly, the Uyghur texts are segmented, the stop words are 
deleted, the stems are extracted and synonyms are replaced through the preprocessing stage, of which extraction stems are based 
on N-gram statistical models. Then, calculate the hash value of each text block through the BKDRhash algorithm and construct 
the hash fingerprint information of the entire document. Finally, according to the hash fingerprint information, the document 
and document library are matched at the document level, the paragraph level and the sentence level based on the RKR-GST 
matching algorithm, and the similarity of the document is obtained, so as to realize plagiarism detection. The experimental 
evaluation in Uyghur documents shows that the proposed method can detect plagiarism documents accurately and is feasible 
and effective. 
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0 引言 语 进 行书 写 的 学 术 论 文 申 。 对 维 语文 档 进行 相似 度 计算 和 简 窍 
检测 对 维 语文 化 的 健康 发 展 具 有 重要 意义 。 
通过 网 络 获取 信息 十 分 容易 ， 这 使 学 术科 穷 成 为 一 种 简单 由 于 文本 中 的 每 个 单词 都 可 能 有 很 多 同义词 ， 且 具有 不 同 
操作 。 存在 以 下 几 种 类 型 的 文档 旨 窃 0: 9) 直 接 从 发 表 的 文本 中 ”的 含义 ， 给 虽 窃 检测 造成 了 一 定 的 难度 内。 传统 的 旭 宠 检测 方 


复制 短语 或 段落 ， 而 不 给 出 引用 出 处 和 作者 ，b) 将 已 发 表 内 
进行 语句 和 结构 修改 并 进行 使 用 。 为 了 保护 作者 的 版 权 ， 对 
发 表 文 档 进 行 简 窃 检测 是 一 种 重要 手段 站。 近 些 年 ， 随 着 国 
对 新 疆 地 区 经 济 和 教育 发 展 的 大 力 支 持 ， 产 生 了 很 多 以 维 召 


法 主要 是 手动 的 ， 将 文本 相互 比较 以 检测 复制 粘贴 内 容 。 传 统 
方法 易于 应 用 ， 但 通常 需要 较 长 的 处 理 时 间 ， 并 且 不 可 靠 ， 特 
别 是 在 大 文本 的 情况 下 。 为 此 ， 需 要 自动 工具 来 帮助 用 户 快速 
准确 地 检测 副 守 。 常 用 的 自动 剩 窃 检测 方法 可 分 为 与 内 容 无 关 


2 


内 这 


es 
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的 检测 方法 和 与 内 容 相关 的 检测 方法 外 。 与 内 容 无 关 的 方法 是 。 格 、 大 小 写 等 不 敏感 ， 对 较 少 的 匹配 不 敏感 (匹配 应 该 足够 大 ， 
基于 评估 特定 语言 中 的 固有 文本 特征 ， 例 如 单个 字符 的 数量 和  ” 才 意 味 着 璋 穷 );， 对 文件 内 容 的 置换 不 敏感 。 
句子 的 平均 长 度 。 与 内 容 相 关 的 方法 是 基于 评估 特定 词语 的 特 本 文 提 出 的 维吾尔 文 简 窍 检测 工具 U-PD 是 基于 内 容 的 方 
征 。 例 如 ， 特 殊 词语 的 频率 属性 。 基 于 内 容 的 方法 依赖 于 文档 ” ”法 构建 的 。U-PD 的 主要 架构 如 图 1 所 示 。 其 主要 步 又 有 : a) 预 
内 容 的 具体 表示 。 文 档 指 纹 (1 是 一 种 表示 文档 的 有 效 技术 ， 可 处 理 过 程 ， 包 含 分 词 、 停 止 词 删除 、 生 成 词 干 和 同义词 蔡 
通过 比较 文档 的 指纹 信息 来 测量 两 个 文档 的 相似 性 。 文 档 指纹 。” ” 换 ;b)hash 指纹 表示 过 程 ， 即 使 用 Hash 指纹 数据 来 表示 文档 信 
是 由 文档 的 hash 子 集 创建 的 一 组 整数 构成 , 用 来 表示 文档 的 关 和 妃 ;c) 相 似 性 检测 ， 将 文档 构建 成 三 层 树 结构 ， 使 用 匹配 算法 来 


键 内 容 。 找到 各 级 中 两 个 hash 字符 串 的 最 长 匹配 。 

于 维吾尔 语文 档 的 信息 化 处 理发 展 较 晚 ， 目 前 在 维吾尔 ee RS 
语文 档 相似 性 、 文 档 过 渡 等 方面 的 研究 单位 主要 为 新 疆 大 学 。 。““ 克 吝 友 请 吕 闻 ”” 疝 六 从 肌 大法 生 亲 ee 
常用 的 英文 文档 相似 性 度量 有 词 频 - 逆 文 档 频率 (TF-IDF)、 信 和 ee 
息 增益 、 互 信息 和 余弦 相似 度 .由 于 维吾尔 语 的 复杂 语言 结构 ， ol 
这 些 度量 都 不 能 很 好 地 应 用 ， 为 此 检测 维吾尔 语文 档 中 的 弱 窗 Wai Sd 
是 一 项 具有 挑战 性 的 任务 。 由 于 维吾尔 语 形态 变化 多 样 ， 如 何 a i i ra 
提取 用 于 表示 一 篇 文档 的 关键 词 或 语言 模型 ， 以 此 来 计算 文档 a sl sn 
间 的 相似 性 是 一 个 难点 。 目 前 很 少 有 学 者 提出 相关 方法 ， 其中。 au ys 请 人们 的 as us。 他 的 说 人 ( 女 ) 
文献 [7] 提 出 一 种 维吾尔 语句 子 相 似 度 计算 方法 (MUSM)， 其 采 
用 词 形 特征 ， 通 过 多 策略 精 选 算法 来 计算 两 个 维吾尔 语句 子 的 
相似 度 。 然 而 ， 其 只 能 在 句子 级 进行 检测 ， 且 没有 考虑 到 同 义 维吾尔 文 文 习 
词 的 蔡 换 问题 。 文 献 [8] 首 先 引入 和 分 析 了 维吾尔 语文 本 语义 相 二 
似 性 度量 ,通过 上 下 文 来 确定 语义 相似 度 ,但 是 其 精确 性 较 低 ， | 分 忆 
不 能 用 来 进行 避 窗 检测。 Y 

' 预 | 删除 停止 词 

本 文 提出 了 一 种 基于 内 容 的 维吾尔 语 习 窃 检测 (Uygur - 下 
plagiarism detection, U-PD) 方 法 。 其 主要 工作 如 下 : a) 通过 分 词 、 | N-gram 词 干 提取 
删除 停止 词 、n-gram 词 干 提取 和 同义词 替换 操作 实现 文档 的 巴 了 有 
处 理 ， 以 此 使 后 续 相似 度 计算 能 够 对 词 形变 换 和 同义词 具有 重 i: | 
棒 性 ，b) 通 过 hash 指纹 信息 来 表示 文本 ， 以 此 提高 文本 表示 的 和 
准确 性 和 计算 效率 ， 其 是 通过 BKDRhash 算法 实现 ，o) 通 过 本 ER 
RKR-GST 匹配 算法 在 文档 级 、 段 落 级 和 句子 级 对 文档 进行 匹 PA 
配 ， 以 此 实现 到 窗 检测。 实验 结 果 证 明了 提出 方法 的 有 效 性 。 从 有 段 藻 级 检测 
1 ”维吾尔 语 特征 本 二 二 

维吾尔 语 是 一 种 高 度 黏着 性 语言 ， 其 单词 由 32 个 字母 组 条 出 结果 


成 ， 每 种 字母 有 4 种 不 同 的 形式 ， 致 使 其 时 态 和 形态 变化 比 英 
语 更 丰富 。 维 吾 尔 语 中 ， 通 过 在 单词 的 结尾 添加 不 同 的 词 绥 来 
| 人 同 3 文档 预 处 理 
单词 的 词义 相差 不 大 饵 。 由 于 这 些 特征 ， 导 致 维吾尔 语文 本 的 

原始 特征 维 数 大 、 文 本 表示 稀疏 等 问题 0， 和 传统 中 文 或 英文 ”3.1 预 处 理 基本 步骤 

的 文本 相差 很 大 。 大 多 数 基于 内 容 的 检测 方法 都 需要 一 个 预 处 理 阶段 ， 用 来 


中 1 提出 的 U-PD 方法 主要 框架 


AS 


维吾尔 语 的 动词 和 一 部 分 名 词 是 由 词 干 中 形成 的 。 词 汇 具 ”删除 停止 词 并 生成 词 干 ， 最 终 将 维吾尔 语文 本 转换 为 结构 化 表 
有 固定 模式 ,通过 在 词 的 前 后 添加 前 级 和 后 组 可 以 表示 它 的 数 、 。 示 ， 有 利于 后 续 的 惠 窃 检测 过 程 。 预 处 理 过 程 具体 描述 如 下 : 
性 和 时 态 。 表 1 展示 了 可 能 添加 到 单词 “SL”( 诗 人) 中 的 不 引 分 词 。 将 输入 文本 分 解 成 字符 。 

同 词组 及 其 含义 ， 其 中 ， 下 划 线 上 的 字母 为 词 线 。 b) 删 除 停止 词 (SW)。 因 为 停止 词 在 任何 文本 中 被 视 为 文档 


间 ; \ 重 要 的 差异 。 将 其 删除 可 效 减低 文本 表示 维度 ， 减少 
2 维 五 五 本 票 | 窃 检 测 方 > 框架 
维吾尔 语文 | 窍 检测 去 框 误 报 数 ， 以 得 更 显 4 结果 。 


自然 语言 璋 窃 检 测 系 统 应 满足 以 下 特性 :对 标点 符号 、 空 co) 生 成 词 干 (Stem)。 通 过 删除 最 长 的 后 级 和 前 级 , 然后 通过 
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N-gram 统计 模型 计算 单词 与 词 库 词 干 的 相似 性 ， 以 此 将 单词 


缩减 为 其 词 干 。 


和 二 


作 期 刊 


亚 森 。 艾 则 孜 ， 等 : 基于 分 saris nay 窃 检 测 方法 


词 形 标准 化 后 ， 算 法 会 检查 单词 是 否 在 一 个 停止 词 表 中 。 


d) 同 义 词 蔡 换 (Synonym)。 将 词 转换 为 最 常见 的 同义词 有 助 


于 检测 隐藏 简 窃 


中 检索 ， 


以 同义词 列表 


的 高 级 形式 。 词 汇 同义词 从 维吾尔 语 WordNet 


中 的 第 一 个 同义词 认为 是 最 常见 的 单词 。 


3.2 基于 n-gram 统计 模型 的 词 干 提取 


对 于 词 干 提取 


,通常 有 基于 词 干 的 方法 和 基于 统计 的 方法 ， 


相 比 而 言 ， 基 于 统计 的 方法 更 适合 维吾尔 语文 本 分 类 任务 。 本 
文采 用 了 n-gram 统计 模型 04 来 提取 维吾尔 语词 干 。 采 用 的 n- 
gram 为 字母 级 别 ， 将 所 有 连续 的 个 字母 序列 作为 一 个 单元 ， 
称 为 一 个 gram。 

N-gram 模型 中 , 其 设 定 一 个 字母 单元 上 在 文本 中 出 现 的 概 


率 只 与 前 N-1 个 字母 相关 。 因 此 ， 字 母 序列 眠 = 14， 出 现 
的 概率 表示 为 : 

P(D) = P(Lbb,...,l) = HP [Bs la) (1) 

在 维吾尔 语 中 ， 由 于 字母 相互 结合 的 概率 很 高 ， 所 以 较 小 


的 不 能 很 好 地 表现 


有 意义 的 词 。 根 据 维 
强 的 代表 性 。 
在 实验 部 分 设 定 n=3。 


单词 属性 , 而 较 大 的 入 可 能 会 过 滤 掉 一 些 


停 1 


上 词 表 由 165 个 单词 组 成 。 消 除 停止 词 后 ， 算 法 移 除 一 组 前 


缀 (co ‘ls ‘st yn 心 6 等 )。 移 除 后 ， 算 法 会 检查 
单词 长 度 是 否 小 于 3 个 字母 ， 如 果 小 于 3 个 ， 说 明 前 绥 是 单词 


的 一 


个 主要 部 分 ， 因 此 移 除 的 前 绥 会 恢复 到 单词 中 。 接 着 将 后 


级 (ae A YAS El es 
等 ) 递 归 地 从 词尾 移 除 。 首 先 从 最 长 的 后 级 开始 , 再 移 除 较 短 的 。 
当 词 的 前 级 和 后 级 都 移 除 之 后 ， 算 法 还 pe 属于 停 
止 词 表 中 的 词汇 ， 这 是 因为 一 些 停 止 词 也 会 附加 前 级 和 后 级 。 


最 后 ， 利 用 N-gram 统计 模型 计算 单词 间 的 相似 性 获得 最 


终 词 干 。 对 语料库 中 的 所 有 术语 对 ， 计 算 其 相似 性 度量 。 具 


Cu (政治 ) 和 师 iw (政治 的 ) 的 相似 性 。 


模型 


有 
高 于 预定 义 相 似 性 闵 值 的 术语 被 聚 类 ， 并 仅 用 其 中 一 个 术语 来 
表示 。 


下 面 的 例子 描述 了 基于 N-gram 模型 (N=2)， 计 算 两 个 词 


) m= 局 4c ism 。( 首 先 将 词 分 解 为 两 字母 组 合 
!) 


至 尔 语 的 结构 特征 , 设置 n=3、4 时 具有 较 
通过 实验 分 析 ， 当 n=3 时 效果 最 好 。 为 此 ， 本 文 


在 基于 n-gram 统计 模型 的 词 干 提取 方法 中 ， 首 先 移 除了 
单词 中 最 常见 的 前 绥 和 后 组 , 也 包含 外 国语 、 数 字 、 停止 词 等 。 


然后 ,通过 n-gram 模型 计算 两 个 词 的 相似 性 , 以 此 来 提取 词 干 。 
ram 统计 模型 的 词 干 提取 算法 如 算法 1 所 示 。 


基于 n-g 
算法 1: 
for 文 

if 


本 中 的 每 个 词 
FE 维吾尔 语词 汇 


基于 N-gram 统计 模型 的 词 干 提取 算法 


then 该 词 是 无 


if 包含 数字 


if 单 


词 ; 


then 该 词 是 无 
词 长 度 <3 


if 该 词 是 停止 词 


then 该 词 是 无 用 词 ; 


移 除 


前 级 和 后 级 


if 该 词 是 停止 词 


和 


As 


then 该 词 是 无 用 词 ; 


附加 符号 ， 并 标准 化 词汇 ; 


then 该 词 是 无 用 词 ; 


n-gram 统计 模型 计算 单词 间 相 似 性 获得 词 二 


end for 


首先 ， 算 法 确保 音 
3 个 字母 的 词 在 文章 中 


词 是 一 个 维吾尔 语词 ， 并 认为 长 度 少 于 
是 不 重要 的 。 接 着 会 移 除 各 种 附加 符号 ， 


这 些 符号 在 字母 的 上 面 


或 下 面 用 于 正字 法 ， 作 为 词法 的 标志 。 


之 后 应 | 


j 词 标准 化 方法 ， 将 一 些 字母 的 不 同 写法 统一 为 相同 的 


形式 ,如 : 将 ss 统一 为 c ;将 A ,4 统一 为 A; 将 区 ,区 全 全 


两 


4 


b) 分 解 成 的 两 字母 组 合 一 6 局 is。 
C Ei 3 be 


d) 了 分 解 成 的 两 字母 组 合 dl i Ss b bem 。 


那么 相似 性 为 $= -2x3 


=0.8571 。 其 中 ,4 和 B 分 
A+1B 4+3 i 


别 表示 第 一 个 词 和 第 二 个 词 中 不 同 的 两 字母 组 合 数量 , C 表示 
个 词 共同 的 两 字母 组 合 数量 。 将 相似 性 大 于 阔 值 到 的 两 个 词 
归 为 一 个 词 干 。 


2 展示 了 U-PD 方法 中 一 个 维吾尔 语文 本 句子 预 处 理 的 


例子 。 


沛 香 尔 语句 子 (33> 一 -1 人 Sa， PE 到 .5-:) 


(033— = ti- dl ) 


G52-=51e3-enst tl 5. 
Ct sj) 
wy |] 越 横 -a sss aas “ ) 
同 义 问 替换 Fy el a a 


图 2 ”一 个 维吾尔 语文 本 预 处 理 的 例子 


基于 hash 指纹 的 文本 表示 
数字 指纹 (9 是 一 种 散 列 (hash) 函 数 ， 用 来 将 文本 映射 到 另 


一 个 文本 上 。 另 外 ， 数 字 指纹 可 以 把 文本 压缩 成 摘要 ， 减 少数 


据 量 并 规范 化 其 格式 。hash 指纹 作为 文本 数据 的 映射 ， 对 应 着 


不 同 的 文本 数据 。 ee ， 只 需要 根据 文本 


数 提 


斌 


居 的 hash 指纹 信息 ， 通 过 比较 来 判断 相似 性 。 


录用 稿 


生成 hash 指纹 的 技术 包括 i-hash 方法 、0 mod p hash 方法 
以 及 Winnowing 方法 1 引 。 在 i-hash 方案 中 , 选择 每 个 文档 的 第 
i 个 hash 值 。 该 方法 易于 实现 ， 但 在 存在 文本 插入 、 删 除 或 重 
新 排序 的 情况 下 不 可 靠 。 例 如 ,如 果 将 一 个 字母 插入 到 文本 中 ， 

则 指纹 将 被 移 位 一 个 ， 这 改变 了 原始 文档 并 且 没 有 共享 指纹 ， 

因此 不 会 检测 出 到 副本 。 在 0 mod p 方案 中 ， 其 中 p 是 整数 ， 

选择 位 于 每 个 0modp 处 的 hash 值 ， 使 所 有 的 hash 值 中 的 Vp 
被 保留 下 来 作为 文档 指纹 。 通 过 统计 文档 中 相同 指纹 的 数量 来 
检测 文档 相似 性 。 但 其 不 能 保证 文档 间 的 所 有 匹配 会 被 检测 出 
来 。Winnowing 算法 是 一 种 本 地 指纹 识别 算法 ， 其 使 用 了 滑动 
窗 从 hash 序列 中 选择 合适 指纹 。 令 1 和 大 分 别 为 保证 阔 值 和 品 
声 阔 值 .必须 满足 以 下 两 个 属性 才能 确定 两 个 文档 之 间 的 匹配 : 
(如 果 存 在 与 保证 阔 值 1 一 样 长 的 匹配 子囊 ， 则 检测 到 匹配 ; 
人 C) 没 有 检测 到 比 噪声 阔 值 大 短 的 任何 匹配 。Winnowing 算法 包 


上 


return (hash&ex7FFFFFF ); 


} 


亚 森 。 艾 则 孜 ， 等 : 基于 分 级 匹配 的 维吾尔 语文 档 相 似 性 计算 及 村 
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在 BKDRhash 算法 hash 值 计算 过 程 中 , 对 于 长 度 为 的 字 
符 串 cc2…ci， 设 定 一 个 基数 b 和 一 个 素数 49， 那么 该 字符 串 的 


Ar 时 


hash 值 表示 为 
Hash(cic,:: 


下 一 组 字符 


Pasp(cc ceo) -| 


) ask(c) xb*”! +ask(c,)xb"™ 
we 
。 +***+ask(c, 1)xb+ask(c,) 


jmas (1) 


cc cea 的 hash 值 表示 为 : 


串 来 进行 计算 即 可 ; 2) 在 相 14 


Hash(cic,*…c )— 


ask(c)xb"! xb+ask(c,,) 


括 以 下 步骤 首先 给 定 1-k+1 的 窗口 大 小 ， 每 个 窗口 w; 包 含 
hash 值 及 .…h,,,。 然 后 从 每 个 窗口 中 选择 最 小 hash 值 作为 指 
纹 。 如 果 存 在 多 个 具有 最 小 值 的 hash， 则 选择 最 右边 的 一 个 。 
最 后 将 所 有 选 定 的 hash 作为 文档 指纹 。 但 是 这 些 方法 都 不 能 很 
好 的 表示 文档 属性 ， 为 此 本 文 先 将 文档 进行 分 块 ， 并 从 这 些 块 
中 通过 BKDRhash 算法 来 获得 各 块 的 hash 值 作为 其 表示 。 
为 了 提取 文档 的 hash 指纹 , 本 文 首先 需要 将 文本 切 成 较 小 
的 块 。 一 个 句子 或 一 个 单词 可 以 用 作 一 个 单元 块 。 在 基于 句子 
的 分 块 中 ,基于 块 参数 将 文档 中 连续 7 个 句子 分 组 成 一 个 块 。 
例如 ， 给 定 一 个 包含 句子 s1s2s3s4s5 的 文档 ， 如 果 n=3 ， 那 么 
这 些 块 是 sls2s3 、s2s3s4 和 s3s4s5 。 在 基于 单词 的 分 块 中 , 文 
档 根 据 块 参 数 n 将 连续 nn 个 单词 分 组 成 一 个 块 。 例 如 ， 给 定 包 
含 wlIw2w3w4w5 的 文档 ， 如 果 n=3 ， 那 么 这 些 块 是 wlw2w3 、 
w2w3w4 和 w3w4w5 。 基 于 词 的 分 块 比 基于 句子 的 分 块 能 够 为 
相似 度 检测 提供 更 高 的 精度 。 本 文 U-PD 采用 了 基于 单词 的 分 
块 方法 ， 然 后 计算 每 个 块 的 hash 值 。 
选择 一 个 hash 函数 是 很 重要 的 , 因为 将 不 同 的 块 映射 到 相 

同 的 hash 可 以 最 小 化 冲突 。 例如， 用 于 将 每 个 块 映射 到 块 字符 
整数 值 之 和 的 hash 函数 是 很 容易 实现 。 但 是 , 这 不 是 一 个 精确 
的 hash 函数 ， 因 为 具有 不 同 顺序 的 相同 字符 的 块 具 有 相同 的 
hash 值 ( 冲 突 )。 在 本 文中 , 使 用 BKDRhash (来 自 BrianKernighan 
和 Dennis Ritchie ) 函数 来 进行 分 块 。 此 函数 通过 一 个 特殊 值 ( 命 
名 为 seed， 通 常 等 于 31)， 返 回 每 个 字符 的 乘法 之 和 。seed 值 
应 该 是 一 个 素数 ， 以 保证 hash 值 的 唯一 性 。BKDRhash 算法 描 
述 算法 2 所 示 。 

算法 2: BKDRhash 算法 

BKDRhash (str) 

{ 


seed =31, hash =0@; 


for (i=0; i< str.length; i++) 


{ 


hash=hash*seed + str.charAt(i); 


值 ， 有 效 减少 了 计算 量 ， 


je q (2) 


本 文选 择 BKDRhash 算法 来 生成 文档 hash 指纹 的 原因 如 
下 : 1) 该 算法 不 需要 考虑 输入 数据 类 型 ， 只 需要 将 其 作为 字符 
以 度 计 算 过 程 中 只 需要 比较 hash 
是 高 了 检测 效率 。 


5 ”基于 分 级 比较 的 文本 相似 性 检测 


5.1 相似 性 度量 


hash 指纹 比较 的 相似 性 指标 有 很 多 种 , 包括 Levenshtein 距 


Es: 


离 、 最 长 公共 子 串 (longest common subsequences, LCS)、Karp- 


Rabin 贪心 字符 串 匹 配 (running Karp-Rabin greedy string tiling， 
RKR-GST)094。Levenshtein 距离 测量 最 小 操作 数 : 插入 、 删 除 


或 蔡 换 ， 以 及 将 


.人心 hr 


个 字符 中 


转换 为 男 一 个 字符 串 。 例 如 ， 


“Saturday” 和 “Sunday” 之 间 的 Levenshtein 距离 是 3。LCS 用 来 
找到 两 个 字符 串 中 通用 的 最 长 子 串 ,例如 , “Saturday” 和 “Sunday” 


中 常见 的 最 长 子 8 


是 “day”。RKR-GST 是 一 种 加 速 GST 算法 的 


改进 技术 ， 为 模式 字符 串 中 长 度 为 s 的 每 个 子 字 符 串 和 文本 字 


符 串 中 长 度 为 5 的 每 个 子 
符 串 中 的 每 一 个 hash 值 与 文本 


2 Ar 二 


字符 上 


创建 一 个 hash 值 ， 并 将 模式 全 


a 


字符 串 中 的 hash 值 进 行 比较 。 


如 果 模 式 和 文本 hash 值 相 等 , 则 表明 该 模式 与 相应 文本 子 串 之 


间 存 在 匹配 。 


相似 度 检 测 的 一 个 关键 问题 是 选择 适当 的 度量 。 对 于 璋 窍 


检测 ，RKR-GST 和 LCS 更 适合 ， 
(插入 ， 删 除 等 )。 在 本 文 U-PD 中 ， 由 于 通过 hash 指纹 函数 将 
文本 通过 Hash 值 进行 表示 ， 为 此 采用 RKR-GST 算法 更 加 适 


人 
所 。 


5.2 RKR-GST 算法 


GST 是 一 种 贪心 
全 相等 .KR 算法 是 一 种 
匹配 模式 串 出 现 的 位 置 。 
只 有 当 模 式 子 串 


为 此 不 需要 


算法 各 自 的 优点 ， 
才 需 要 进行 比较 ， 


因为 列 窃 涉及 对 文本 的 修改 


来 检测 两 个 字符 是 


匹配 算法 ， 
随机 串 


是 
匹配 算法 , 用 于 在 文本 串 中 找 
RKR-GST 算法 结合 了 GST 算法 与 KR 


不 
四] 


上 上 


个 字符 ， 有 效 提高 了 匹 丁 


过 程 


与 文本 子 串 的 hash 值 相同 时 


逐一 比较 模式 串 与 文本 串 中 的 每 
的 运行 效率 05。 


RKR-GST 算法 中 ， 首 先 设 定 


串 工 与 P 划分 为 


行 一 个 迭代 扫描 过 程 , 对 这 


各 个 小 块 ， 


个 长 度 参数 s， 将 两 个 字符 


个 字 


计算 各 小 块 的 hash 值 。 然 后 执 


符 串 的 hash 值 进行 贪 梦 匹配 ， 
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其 有 十! 
YR 


Chi 
级 匹配 的 维 知 尔 语 he a 


录用 稿 亚 森 。 艾 则 和 孜 ， 等 : 基于 分 
直到 不 能 匹配 为 止 。 记 录 两 个 字符 串 了 与 了 的 最 大 匹配 长 度 ”存在 潜在 的 相似 性 。 在 这 种 情况 下 ， 将 在 段落 级 别 上 继续 比较 
MatehLength 和 匹配 的 开始 位 置 , 形成 一 个 匹配 列表 。 接着 , 执 过程 ， 否 则 没有 检测 到 相似 性 ， 并 停止 比较 。 如 果 在 段 级 别 检 
行 一 个 标记 过 程 ， 判 断 字 符 串 匹配 是 否 发 生 重合 ， 如 果 重 益 则 。” 测 到 可 能 的 相似 性 ， 则 在 句子 级 继续 比较 过 程 ， 否 则 终止 该 过 
删除 。 最 后 , 改变 长 度 参 数 s, 重复 进行 扫描 过 程 和 标记 过 程 ， 程 。 如 果 两 个 句子 之 间 存 在 可 能 的 相似 性 , 则 使 用 RKR-GST 算 
直到 长 度 参 数 小 于 最 小 匹配 长 度 Min-Length, 算法 停止 . RKR- ”法 进行 相似 性 测量 。 如 果 最 长 匹配 长 度 大 于 最 小 句子 的 长 度 与 
GST 算法 的 流程 如 图 3 所 示 。 闵 值 的 乘积 ， 则 在 两 个 句子 中 标识 相似 的 字符 串 ， 然 后 继续 下 
=- 一 句 的 比较 。 文 档 相 似 度 的 表达 式 为 : 
和 Docsiiarin = DOC repon (3) 
| 初始 化 s，MinLength | . DocSizey, 


. 是 
s<MinLength 
否 vy 
扫描 过 程 ， 输 出 最 大 匹配 长 度 Lmax 
=) 
到 s>2Lmax 
否 要 
标记 过 程 
得 
洁 s>2MinLength 
s=s/2 否 
已 
S>MinLength 
否 有] 


S=MinLength 


传统 GST 算法 能 够 应 对 字符 串 中 改变 字符 | 


Cex ) 


3 ”RKR-GST 算法 流程 


到 窃 检 测 中 应 】 


j 较 多 ,但 其 


Sa 


时 间 复 杂 度 较 大 。 


情况 下 的 时 间 复杂 度 为 O02) ，n 为 字符 串 长 度 。 
串 的 hash 值 相等 时 才 需 要 进行 比较 ， 


J 


算法 中 ,只 


子 


其 最 坏 情况 下 的 时 间 复 杂 度 为 O(n ) 


共 
两 


段落 和 名 


顺序 的 问题 , 在 
需要 比较 两 个 字符 串 中 的 每 个 元 素 ， 


， 最 好 


而 RKR-GST 


配 的 子 串 数量 较 少 ， 


杂 度 可 以 降低 到 


0(n) ， 最 坏 情况 下 的 时 i 


提高 了 


匹配 效率 。 其 最 好 


5.3 基于 树 结 构 的 相似 性 检测 


为 每 个 文档 创建 树 结构 表示 ， 以 描述 其 逻 
所 示 。 树 根 表 示 文 档 本 身 ， 


这 种 表示 泣 


辑 结构 ， 


A 


第 二 级 代表 段落 ， 


进行 匹 


情况 下 的 时 间 复 
司 复杂 度 为 OO ) 。 


如 图 4 


叶 节 点 表示 句子 。 
由 在 避免 多 个 文档 之 间 不 必要 的 比较 。 然 后 从 上 到 


下 遍历 树 ， 


先后 如 


段落 1 | 段落 n 
句子 1 | 句子 n 
图 4 文档 的 树 结 构 表示 


文档 级 别 、 段 落 级 别 和 句子 级 别 进行 比较 。 


个 文档 的 交集 尺寸 , 即 RKR-GST 算法 获得 
子 的 相似 度 计算 同 理 。 
算法 3: 文档 级 比较 算法 


输入 : 文档 4 和 (两 个 输入 文档 ) 
输出 : 文档 相似 性 


始 


最 小 文档 


尺寸 DocSize 


Min 
尺寸 DocSize 


Intersect 
如 果 ( DocSize > DocSize 
那么 


=min(|Al,|B) 
=min(|A|~|BD 


文档 交集 
) 


* 
Docm reshold 


Tuersect Min 
similarity = true 

否则 similarity = false 
结束 
算法 4: 段落 级 比较 算法 
输入 : 段落 4 和 Bp (两 个 输入 段落 ) 
: 段落 相似 性 


# 


尺寸 ParSize 


Min 


尺寸 ParSize 


Intersect 


段落 最 小 =min(A|,|B) 
段落 交集 =min(|A| MB 
如 果 ( ParSize,isw > ParSizey 


那么 


* Parespoia ) 
similarity = true 
否则 similarity = false 
结 
算法 5: 句子 级 比较 算法 
给 入: 句子 4 和 (两 个 输入 句子 ) 
子 相似 性 


最 小 尺寸 SenSizey,, = min(|4|,|B|) 
子 交集 尺寸 SenSize =min(|A| MIB)) 
如 果 ( SenSize, 


Intersect 


Intersect 


> SenSize,,,, * Sen ) 


Min Threshold 
那么 similarity = true 


否 者 similarity = false 


中 : DocSizew 表示 两 个 文档 的 最 小 尺寸 ， DocSizejwwsen 表示 


的 最 大 匹配 长 度 。 


结 
为 树 的 每 个 级 别 采用 了 一 种 比较 算法 : 算法 3( 文 档 级 )、 算 
6 ”实验 及 分 析 
法 4( 段 落 级 ) 和 算法 5( 句 子 级 )。 实验 及 分 相 
在 文档 级 别 , 根据 两 个 文档 的 hash 值 和 固定 阔 值 对 两 个 文 ”6.1 实验 设置 
行 比较 。 如果 交集 中 的 hash 值 大 于 阔 值 ， 则 两 个 文档 之 间 利用 Java 语言 实现 了 U-PD 算法 ， 并 在 一 个 包含 已 手工 标 


档 j 
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文档 中 40% 的 句子 ， 改 变 这 些 句子 的 结构 ， 并 用 同义词 蔡 换 其 


中 20% 的 单词 。 


对 于 相似 性 检测 系统 中 的 参数 ， 通 过 


多 次 实验 结果 分 析 来 


过 


选择 合适 参数 ,最 终 设 定 BKDRhash 函数 分 块 中 的 块 参数 为 3。 


文档 相似 阔 值 Docrmewou 设置 为 0.1， 
交叉 点 数量 小 于 最 小 文档 


Pa7 


a 


算法 中 ， = 
检测 。 
相似 文档 。 


子 相似 性 


另 


检 和 错 检 ， 设置 当 


似 。 


采用 召回 


即 描述 不 同 主题 的 文档 的 


率 (Recall) 00 和 精 


能 ， 表 示 如 下 : 


大 小 的 10% 。 段 落 相似 
mu 设置 为 0.2; 句子 六 值 Se ov 设置 为 0.5。 
文档 相似 性 大 于 Docmewou 时 , 才 会 进行 段落 相似 性 
为 此 ， 本 文 设置 Pocmewou 较 小 ， 
外 ， 当 段落 相似 和 
检测 ， 
Docmrewou ， 为 20%。 在 最 后 的 句子 级 检测 
两 个 句子 间 的 相似 性 


性 阔 值 
于 本 文 


为 10%， 以 免 漏 掉 一 些 
Pamwewo 时 ， 才 会 进行 句 


E 大 于 


为 了 进一步 筛选 过 滤 ， 为 此 设置 Pomwewo 大 于 


中 , 为 了 综合 考虑 漏 
超过 50% 时 才 判 断 为 相 


度 (Precision) 指 标 来 度量 检测 性 


a 
Recall= 于 x100% (4) 
和 到 鳃 单元 

Precision= es x100% (5) 

6.2 ” 预 处 理 过 程 性 能 分 析 
U-PD 预 处 理 过 程 包括 停止 词 删除 ， 生 成 词 干 和 同义词 蔡 
换 步 又 ， 为 了 评估 这 些 步 又 对 算法 性 能 的 影响 ， 构 建 了 3 种 预 
处 理 策略 ， 即 只 有 停止 词 删除 (SW);， 停止 词 删除 + 生成 词 干 


(SW+Stem) ; 


测 系统 中 进行 
图 
三 个 数据 集 上 


停止 词 删除 + 生成 词 干 + 
(SW+Stem+Synonym)。 将 3 种 预 处 理 


检测 。 


得 到 的 平均 精 


Mean( Recall) 。 


可 以 看 出 ， 只 具备 SW 预 处 理 
隐藏 的 简 窃 (同义词 天 换 和 
体 表现 都 较 差 ,其 中 在 数据 集 
Mean( Precision) = 53.7% 。 

具备 SW+Stem 预 处 至 


替换 ， 但 它 可 


以 高 精度 地 识 


结构 变化 )。 其 


同义词 替换 
后 的 文档 输入 到 相似 性 检 


5 和 6 分 别 显示 了 有 具备 三 种 预 处 理 策略 的 U-PD 算法 在 


度 Mean(Precision) 和 平均 召 忆 
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录用 稿 亚 森 。 艾 则 孜 ， 等 : 基于 分 全 人 窃 检 测 万 法 

记 的 300 个 维吾尔 语文 档 的 数据 测试 集中 评估 了 其 性 能 ， 每 个 ” “Mean(Recall)=72.8% 。 这 表明 缩减 单词 到 其 词 干 可 以 增强 机 

文档 大 约 有 800 个 字 。 从 原始 文档 中 生成 3 个 具有 同义词 和 结 ”” 窃 检测 的 性 能 

构 变 化 的 数据 集 ， 来 评估 U-PD 在 检测 隐藏 副 窃 方面 的 性 能 。 L 备 SW+Stem+Synonym 预 处 理 过 程 的 检测 算法 效果 最 好 ， 

数据 集 表示 如 下 在 数据 集 3 上 的 结果 为 Mean(Precision)=96.5% ， 
数据 集 1: 同义词 。 选择 100 个 文档 , 随机 选取 文档 中 50% Mean(Recall)=94.6% 。 其 中 , 以 Mean(Precision)=97.6% 检测 

的 单词 ， 并 用 其 中 一 个 同义词 替换 这 些 单词 。 出 了 同义词 奉 换 ， 以 Mean(Precision) = 93.2% 检测 出 了 结构 变 
数据 集 2: 结构 变化 。 选 择 100 个 文档 ， 随 机 选取 文档 中 ”化 。 

50% 的 句子 ， 并 改变 这 些 句 子 的 结构 。 从 上 述 实验 可 以 得 出 结论 ， 本 文 包括 停止 词 移 除 、 生 成 词 
数据 集 3: 同义词 + 结构 变化 。 选 择 100 个 文档 ， 随 机 选取 ”” 干 和 同义词 替换 步骤 的 预 处 理 过 程 对 后 续 相似 性 检测 有 很 大 的 


促进 作用 。 其 中 ， 基 于 N-gram 统计 模型 的 词 干 提取 过 程 能 


很 好 地 应 对 到 窃 文档 中 改变 句子 结构 的 情景 


同义词 蔡 换 过 程 


月 奈 。 


能 够 很 好 地 应 对 剩 窃 文档 中 的 同义词 栓 换 的 情景 。 
行为 的 有 效 检测 提供 了 


良好 的 输入 特征 。 


为 隐藏 璋 窃 


Precision(%) 
a 
Le 


SW+Stem 


国 SWR+Stem+Synonym 


96.57 


数据 集 2 数据 集 3 


图 5 


Recall(%) 


具备 各 种 预 处 理 方法 的 算法 在 数据 外 


SW+Stem 


上 的 Precision (%) 


a 


暂 SWR+Stem+Synonym 


图 6 具备 各 种 预 处 理 方法 的 算法 在 数据 集 上 的 Recall (%) 


6.3 性 能 比较 


将 本 文 提 出 
SW+Stem+Synonym) 与 文献 [7] 提 


的 


U-PD 方法 ( 预 人 处理 过 
出 的 基于 词 形 特征 


程 包含 
的 多 策略 


精 选 维 吾 


过 程 的 检测 算法 没有 检测 到 
在 所 有 数据 集 上 的 整 
3 上 的 结果 为 


Mean( Recall) = 45.6% 。 
E 过 程 的 检测 算法 没有 检测 
别 更 改 句 子 结构 的 相似 性 文档 ， 其 


到 同义词 


中 在 数据 集 3 上 的 结果 为 Mean(Precision)=83.6% ， 


尔 语句 了 


示 了 在 每 个 数据 集 上 


中 每 个 实验 执 


相 


何 


以 度 计算 方法 MUSM) 进 行 比较 。 表 2 显 
由 U-PD 和 MUSM 给 出 的 平均 精度 和 召 
了 5 次 。 为 了 表示 各 种 方法 的 稳定 性 ， 


还 分 别 


计算 了 精度 和 召 


五 


率 结果 的 标准 差 0 。 


所 以 其 性 


据 集 上 


uy 


表 2 可 以 看 出 ,由 于 
能 接近 U-PD 方法 ( 预 处 至 
结果 。 总 的 来 说 ，U-PD 性 能 优 于 


的 


总 


MUSM 无 法 检测 到 任何 同义词 替换 ， 
过 程 包含 SW+Stem) 的 检测 
MUSM。 对 于 U-PD，3 个 数 


体 Mean(Precision) =95.8% 


录用 稿 


Mean(Recall)=93.7% 。 对 于 MUSM，3 个 数据 集 上 的 总 体 
Mean( Precision) = 90.2% ，Mean(Recall) =87.4% 。 另 外 ， 可 以 
看 出 U-PD 方法 的 稳定 性 较 好 ， 其 o(Precision)=2.62% ， 

o(Recall)=3.35% 。 而 MUSM 方法 的 稳定 性 较 差 ， 同 一 个 数 
据 集 上 不 同 次 实验 的 结果 相差 较 大 ， 其 o(Precision)=5.45% ， 
o(Recall)=5.97% 。 


表 2 本 文 U-PD(SW+Stem+Synonym) 和 MUSM 的 结果 比较 


数据 集 性 能 U-PD MUSM 

本 Mean( Precision) 97.64% 96.85% 
Mean( Recall) 94.32% 94.18% 

i Meanl( Precision) 93.23% 93.31% 
Mean( Recall) 92.15% 91.96% 

二 Meanl( Precision) 96.57% 80.64% 
Mean( Recall) 94.64% 76.09% 

Meanl Precision) 95.81% 90.27% 

ee Mean( Recall) 93.70% 87.41% 
wT o(Precision) 2.62% 5.45% 
o( Recall) 3.35% 5.97% 


7 ”结束 语 


该 文 提出 了 一 种 维吾尔 语文 档 列 窍 检测 方法 ， 可 以 检测 到 
一 些 隐藏 的 简 窃 形式 ， 例 如 人 句子 结构 变化 和 同义词 蔡 换 。 通 过 
预 处 理 阶 段 来 提取 词 干 并 转换 成 指定 的 同义词 。 然 后 通过 
BKDRhash 算法 将 文档 以 hash 指纹 信息 来 表示 。 最 后 基于 RKR- 
GST 匹配 算法 在 文档 级 、 段 落 级 和 句子 级 对 文档 进行 匹配 ， 实 
现 简 窃 检测 。 通 过 一 系列 实验 证 明了 本 文 方法 对 大 量 维吾尔 语 
文档 的 有 效 性 ， 能 够 精确 检测 出 存在 复制 、 句 子 结构 变化 和 同 
义 词 痊 换 的 简 窃 文档 。 
在 今后 工作 中 ， 将 考虑 其 他 同义词 数据 库 ， 并 进一步 优化 


方法 中 的 参数 (如 冰 值 和 块 值 )， 进 一 步 提高 本 文 方法 的 检测 准 
确 性 。 
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